[Day 25] Hadoop 歷史與安裝

第 12 屆 iThome 鐵人賽

DAY 25

自我挑戰組

資料蒐集與分散式運算 30 天系列第 25 篇

12th鐵人賽 hadoop

Walter

團隊Outcome First

2020-10-08 19:35:13

1558 瀏覽

分享至

台灣俗語說「吃果子拜樹頭，吃米飯拜田頭」，竟然要學習、使用 Hadoop，那就要先了解 Hadoop 的歷史與發源。

Hadoop 怎麼來的

Hadoop 的原生計畫是 Nutch - 一個被設計作為搜尋引擎的計畫。隨著 Nutch 所含加得網頁數量不斷上升原有的搜索能力逐漸跟不上，因此 Nutch 開發團隊引入 Google 所發表的 MapReduce 架構，以及 GFS (Google File System) 解決了大量網頁抓取後的儲存與索引問題，在這之後，開發團隊從 Nutch 中將 MapReduce 和 NDFS (Nutch Distributed Filesystem) 獨立出來並命名為 Hadoop，Hadoop 就此誕生。

Fun Fact
Hadoop 的命名由來是其共同創辦人 Doug Cutting `取自小孩的黃色大象玩具，Hadoop 不具備任何其他意義。

Hadoop 安裝

作者以 MacOS 及 Hadoop 2.10 版為例

Hadoop 是由 Java 開發而成，因此在安裝 Hadoop 之前，必須先確保電腦已具備 JDK，依照 Hadoop Java Versions 的指示，Hadoop 2.X 支援 Java 7 和 Java 8，而 Hadoop 3.X 支援 Java 8，考量到未來可能會使用 Hadoop 3.X，因此在這裡先安裝 Java 8，以省去未來再次安裝的煩惱。安裝好 Java 8 後，請至 .zshrc 設定 JAVA_HOME 的環境變數。

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_261.jdk/Contents/Home

接下來，請至 Apache Hadoop 下載 Hadoop 2.10.0 Binary，下載後請將該檔案解壓縮至你想存放的位置。

在準備好 Java 及 Hadoop 後，請打開終端機輸入以下指令（路徑為解壓縮後的位置）：

export HADOOP_HOME={路徑}/hadoop-2.10.0

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

完成後請輸入下列指令確認 Hadoop 已安裝完成

hadoop version

若是成功安裝，則會顯示下列資訊

Hadoop 2.10.0
Subversion ssh://git.corp.linkedin.com:29418/hadoop/hadoop.git -r e2f1f118e465e787d8567dfa6e2f3b72a0eb9194
Compiled by jhung on 2019-10-22T19:10Z
Compiled with protoc 2.5.0
From source with checksum 7b2d8877c5ce8c9a2cca5c7e81aa4026
This command was run using /Users/alphacamp/Documents/hadoop-2.10.0/share/hadoop/common/hadoop-common-2.10.0.jar

今晚逐漸見底的啤酒是 Coronado 的 Never Better DIPA，這是一隻主打雙倍 IPA 的啤酒，入口濃郁的啤酒花香與深沈的苦澀，最後的結尾卻是如此的俐落，如果你是喜歡 IPA 的朋友，不妨來一瓶陪伴你寫 code 的夜晚吧！今天先這樣，我們明天見！